Given a document in a source language, cross-lingual summarization (CLS) aims at generating a concise summary in a different target language. Unlike monolingual summarization (MS), naturally occurring source-language documents paired with target-language summaries are rare. To collect large-scale CLS samples, existing datasets typically involve translation in their creation. However, the translated text is distinguished from the text originally written in that language, i.e., translationese. Though many efforts have been devoted to CLS, none of them notice the phenomenon of translationese. In this paper, we first confirm that the different approaches to constructing CLS datasets will lead to different degrees of translationese. Then we design systematic experiments to investigate how translationese affects CLS model evaluation and performance when it appears in source documents or target summaries. In detail, we find that (1) the translationese in documents or summaries of test sets might lead to the discrepancy between human judgment and automatic evaluation; (2) the translationese in training sets would harm model performance in the real scene; (3) though machine-translated documents involve translationese, they are very useful for building CLS systems on low-resource languages under specific training strategies. Furthermore, we give suggestions for future CLS research including dataset and model developments. We hope that our work could let researchers notice the phenomenon of translationese in CLS and take it into account in the future.
translated by 谷歌翻译
谷仓(基准自动驾驶机器人导航)挑战在宾夕法尼亚州费城的2022年IEEE国际机器人和自动化国际会议(ICRA 2022)举行。挑战的目的是评估最先进的自动地面导航系统,以安全有效的方式将机器人通过高度约束的环境移动。具体而言,任务是将标准化的差分驱动地面机器人从预定义的开始位置导航到目标位置,而不会与模拟和现实世界中的任何障碍相撞。来自世界各地的五支球队参加了合格的模拟比赛,其中三支受邀在费城会议中心的一组身体障碍课程中相互竞争。竞争结果表明,尽管表面上显得简单,即使对于经验丰富的机器人主义者来说,在高度约束空间中的自主地面导航实际上远非解决问题。在本文中,我们讨论了挑战,前三名获胜团队所使用的方法以及学到的教训以指导未来的研究。
translated by 谷歌翻译
在过去的十年中,随着大数据技术的发展,越来越多的患者信息被存储为电子健康记录(EHRS)。利用这些数据,已经提出了各种医生建议系统。通常,此类研究以平坦结构的方式处理EHR数据,每次相遇都被视为一组无序的特征。然而,不得忽略索赔中存储的诸如服务序列之类的异质结构化信息。本文提出了一个医生推荐系统,并嵌入了时间,以使用异质图注意网络重建患者和医生之间的潜在联系。此外,为了解决患者数据共享交叉医院的隐私问题,还提出了一种基于最小化优化模型的联邦分散学习方法。基于图的推荐系统已在EHR数据集上进行了验证。与基线模型相比,提出的方法将AUC提高了6.2%。我们提出的基于联邦的算法不仅产生了虚拟的融合中心的性能,而且还具有O(1/T)的收敛速率。
translated by 谷歌翻译
核分型是评估染色体异常可能存在的重要程序。但是,由于非刚性性质,染色体通常在微观图像中弯曲,这种变形形状阻碍了细胞遗传学家的染色体分析。在本文中,我们提出了一个自我发项的指导框架,以消除染色体的曲率。提出的框架提取空间信息和本地纹理,以在回归模块中保留带模式。借助弯曲染色体的互补信息,改进模块旨在进一步改善细节。此外,我们提出了两个专用的几何约束,以维持长度并恢复染色体的变形。为了训练我们的框架,我们创建一个合成数据集,其中通过网格变形从现实世界的直染色体生成弯曲的染色体。定量和定性实验是对合成和现实世界数据进行的。实验结果表明,我们所提出的方法可以有效拉直弯曲的染色体,同时保持带的细节和长度。
translated by 谷歌翻译
在为临床应用设计诊断模型时,至关重要的是要确保模型在各种图像损坏方面的稳健性。在此,建立了易于使用的基准,以评估神经网络在损坏的病理图像上的性能。具体而言,通过将九种类型的常见损坏注入验证图像来生成损坏的图像。此外,两个分类和一个排名指标旨在评估腐败下的预测和信心表现。在两个结果的基准数据集上进行了评估,我们发现(1)各种深神经网络模型的准确性降低(两倍是清洁图像上的误差的两倍)和对损坏图像的不可靠置信度估计; (2)验证和测试错误之间的相关性较低,同时用我们的基准替换验证集可以增加相关性。我们的代码可在https://github.com/superjamessyx/robustness_benchmark上找到。
translated by 谷歌翻译
尽管语义通信对大量任务表现出令人满意的性能,但语义噪声和系统的鲁棒性的影响尚未得到很好的研究。语义噪声是指预期的语义符号和接收到的语义符号之间的误导性,从而导致任务失败。在本文中,我们首先提出了一个框架,用于稳健的端到端语义通信系统来对抗语义噪声。特别是,我们分析了样品依赖性和样本无关的语义噪声。为了打击语义噪声,开发了具有重量扰动的对抗训练,以在训练数据集中纳入带有语义噪声的样品。然后,我们建议掩盖一部分输入,在该输入中,语义噪声经常出现,并通过噪声相关的掩蔽策略设计蒙版vector量化量化的量化自动编码器(VQ-VAE)。我们使用发射器共享的离​​散代码簿和接收器用于编码功能表示。为了进一步提高系统鲁棒性,我们开发了一个功能重要性模块(FIM),以抑制与噪声相关和任务无关的功能。因此,发射器只需要在代码簿中传输这些重要的任务相关功能的索引即可。仿真结果表明,所提出的方法可以应用于许多下游任务,并显着提高针对语义噪声的鲁棒性,并显着减少了传输开销。
translated by 谷歌翻译
基于深度学习的人重新识别(REID)通常需要大量的培训数据来实现良好的性能。因此,似乎从各种环境中收集更多培训数据往往会提高Reid性能。本文重新审视了这种共同的信念,并使一些令人惊讶的观察结果:使用更多样本,即使用来自多个数据集的样本的培训,不一定通过使用流行的Reid模型来实现更好的性能。在某些情况下,使用更多样本的培训甚至可能损害评估的性能在其中一个数据集中进行。我们假设这一现象是由于标准网络在适应不同环境中的无法行动。为了克服这个问题,我们提出了一种称为域相机样动态网络(DCSD)的方法,其参数可以适应各种因素。具体而言,我们考虑可以从输入特征和外部域相关因子中识别的内部域相关因素,例如域信息或相机信息。我们的发现是,具有这种自适应模型的培训可以从更多的训练样本中获益。实验结果表明,我们的DCSD可以大大提高性能(高达12.3%),而在多个数据集中的联合培训。
translated by 谷歌翻译
自动驾驶技术的加速开发对获得大量高质量数据的需求更大。标签,现实世界数据代表性是培训深度学习网络的燃料,对于改善自动驾驶感知算法至关重要。在本文中,我们介绍了PANDASET,由完整的高精度自动车辆传感器套件生产的第一个数据集,具有无需成本商业许可证。使用一个360 {\ DEG}机械纺丝利达,一个前置,远程LIDAR和6个摄像机收集数据集。DataSet包含100多个场景,每个场景为8秒,为目标分类提供28种类型的标签和37种类型的语义分割标签。我们提供仅限LIDAR 3D对象检测的基线,LIDAR-Camera Fusion 3D对象检测和LIDAR点云分割。有关Pandaset和开发套件的更多详细信息,请参阅https://scale.com/open-datasets/pandaset。
translated by 谷歌翻译
Recent years have witnessed the rapid growth of Small Private Online Courses (SPOC) which is able to highly customized and personalized to adapt variable educational requests, in which machine learning techniques are explored to summarize and predict the learner's performance, mostly focus on the final grade. However, the problem is that the final grade of learners on SPOC is generally seriously imbalance which handicaps the training of prediction model. To solve this problem, a sampling batch normalization embedded deep neural network (SBNEDNN) method is developed in this paper. First, a combined indicator is defined to measure the distribution of the data, then a rule is established to guide the sampling process. Second, the batch normalization (BN) modified layers are embedded into full connected neural network to solve the data imbalanced problem. Experimental results with other three deep learning methods demonstrates the superiority of the proposed method.
translated by 谷歌翻译
基于方面的情绪分析(ABSA)主要涉及三个子任务:方面术语提取,意见术语提取和方面思维分类,其通常以单独的或联合方式处理。然而,以前的方法并没有很好地利用三个子任务之间的互动关系,并不完全利用易于使用的文档级标记的域/情绪知识,这限制了他们的性能。为解决这些问题,我们提出了一种用于端到端ABSA的新型迭代多知识转移网络(IMKTN)。首先,通过ABSA子组织之间的交互式相关性,我们的IMKTN通过利用精心设计的路由算法将来自三个子任务中的任意两个子组织中的任意两个子组织中的任务特定知识传输到另一个,即任何两个这三个子组织将有助于第三个子任务。对于另一个,我们的IMKTN无疑将文档级知识,即特定于域和情绪相关的知识传输到方面级别子特派团,以进一步提高相应的性能。三个基准数据集的实验结果证明了我们方法的有效性和优越性。
translated by 谷歌翻译